I. Données
II. Plan d’analyse
III. Exploration
IV. Conclusion
V. Annexe
La National Basketball Association (NBA) est la principale ligue de basket-ball au monde, crée le 6 juin 1946 sous le nom de BAA(Basketball Association of America), la ligue est renomée en NBA en 1949 après sa fusion avec la NBL (National Basketball League). Connaissant un franc succès et un engouement sans précédent, la NBA enchaine plus de 77 éditions. Le championnat comprend 29 franchises américaines et une canadienne, réparties en deux conférences (Est et Ouest).Après une saison régulière débutant en octobre et comprenant 82 matchs, les 8 meilleures équipes de chaque conférence s’affrontent en séries éliminatoires (playoffs).Les finales voient s’opposer la meilleure équipe de chaque conférence Est contre celle de la conférence Ouest. L’équipe qui parvient à remporter 4 match en premier est championne de NBA.
Nous avons choisi un dataset sur la NBA puisque nous aimons tous le basket comme sport et la NBA est la compétition la plus prédominante et la plus importante de ce sport. Ayant des connaissances hétérogènes sur le basket au sein de notre groupe ainsi l’étude de ce dataset nous permettra d’approfondir nos connaissances et de mieux comprendre l’évolution de ce sport au fils des années.
Le jeu de données “NBA Stats(1947 - Present)” contient les données des 77 éditions de NBA réparties sur 21 fichiers au format CSV. Parmi ces 21 fichiers, on retrouve deux catégories : les fichiers cotés joueurs et les fichiers cotés équipes. Pour les fichiers cotés joueurs, on compte en moyenne une trentaine de variables comme la saison, l’identifiant du joueur, son âge, son expérience … tandis que les fichiers cotés équipes une vingtaine de variables tels que la saison, le nom de l’équipe, les séries éliminatoires … Les données proviennent du site Basketball-Reference connu pour être le plus grand site complet de statistique de basket crée par Justin Kubatko, mathématicien et statisticien fan de basket qui a développé son site comme passe-temps. En effet, ce site contient toutes les informations sur les statistiques, les scores et l’histoire de toutes les ligues de basket du monde entier.
Le jeu de données est disponible sur Cette page Kaggle et a été publié par [Sumitro Datta], un data management consultant chez Pacific Lif Re.
Notre dataset est composé de 21 fichiers et de 499 colonnes montrant l’évolution de la NBA au fil de l’histoire. Comme nous l’avons mentionné auparavant nous avons deux types de fichiers : d’une part les fichiers cotés joueurs donnant une description du joueur et ses statistiques au sein de la saison et d’autre part nous avons les fichiers cotés équipes contenant les informations sur l’avancement de l’équipe. Il n’y a pas de catégories ou des sous-groupes au sein de notre dataset.
Pour faciliter l’exploration et l’utilisation de ce dataset, chaque joueur possède un identifiant unique par joueur afin de faciliter l’aggrégation des différents fichiers présents.
Nombre d’observations : 31136
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| seas_id | Identifiant de saison | Texte | String | Nominal |
| season | Saison | Texte | String | Nominal |
| player_id | Identifiant du joueur | Texte | String | Nominal |
| player | Joueur | Texte | String | Nominal |
| birth_year | Année de naissance | Numérique | YYYY | Ordinale |
| pos | Position | Texte | String | Nominal |
| age | Âge | Numérique | Integer | Continu |
| experience | Expérience | Numérique | Integer | Discret |
| lg | Ligue | Texte | String | Nominal |
| tm | Équipe | Texte | String | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Discret |
| mp | Minutes jouées | Numérique | Integer | Continu |
| per | Efficacité du joueur | Numérique | Integer | Continu |
| ts_percent | Pourcentage de tirs réels | Numérique | Pourcentage | Continu |
| x3p_ar | Ratio de tentatives de 3 points par tir | Numérique | Pourcentage | Continu |
| f_tr | Ratio de lancers francs par tir | Numérique | Pourcentage | Continu |
| orb_percent | Pourcentage de rebonds offensifs | Numérique | Pourcentage | Continu |
| drb_percent | Pourcentage de rebonds défensifs | Numérique | Pourcentage | Continu |
| trb_percent | Pourcentage de rebonds totaux | Numérique | Pourcentage | Continu |
| ast_percent | Pourcentage de passes décisives | Numérique | Pourcentage | Continu |
| stl_percent | Pourcentage d’interceptions | Numérique | Pourcentage | Continu |
| blk_percent | Pourcentage de contres | Numérique | Pourcentage | Continu |
| tov_percent | Pourcentage de pertes de balle | Numérique | Pourcentage | Continu |
| usg_percent | Pourcentage d’utilisation | Numérique | Pourcentage | Continu |
| ows | Victoires offensives | Numérique | Integer | Continu |
| dws | Victoires défensives | Numérique | Integer | Continu |
| ws | Victoires totales | Numérique | Integer | Continu |
| ws_48 | Victoires par 48 minutes | Numérique | Integer | Continu |
| obpm | Points marqués offensifs par 100 possessions | Numérique | Integer | Continu |
| dbpm | Points marqués défensifs par 100 possessions | Numérique | Integer | Continu |
| bpm | Points marqués par 100 possessions | Numérique | Integer | Continu |
| vorp | Valeur de remplacement au-dessus du seuil | Numérique | Integer | Continu |
| Label | Étiquette | Texte | String | Nominal |
| Count | Compte | Texte | Integer | Discret |
Nombre d’observations : 524
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| player | Nom du joueur | Texte | String | Nominal |
| team | Équipe du joueur | Texte | String | Nominal |
| lg | Ligue du joueur | Texte | String | Nominal |
| season | Saison de sélection | Texte | String | Nominal |
| replaced | Remplacé ou non | Booléen | N/A | Nominal |
Nombre d’observations : 4824
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison de l’attribution du prix | Texte | YYYY | Ordinal |
| lg | Ligue concernée par l’attribution | Texte | String | Nominal |
| type | Type de récompense | Texte | String | Nominal |
| number_tm | Nombre d’équipes sélectionnées | Numérique | Integer | Discret |
| position | Position dans l’équipe sélectionnée | Texte | String | Nominal |
| player | Nom du joueur | Texte | String | Nominal |
| age | Âge du joueur | Numérique | Integer | Continu |
| tm | Équipe du joueur | Texte | String | Nominal |
| pts_won | Points remportés | Numérique | Integer | Continu |
| pts_max | Points maximum | Numérique | Integer | Continu |
| share | Part de points remportés | Numérique | Pourcentage | Continu |
| x1st_tm | Nombre de premières sélections | Numérique | Integer | Discret |
| x2nd_tm | Nombre de deuxièmes sélections | Numérique | Integer | Discret |
| x3rd_tm | Nombre de troisièmes sélections | Numérique | Integer | Discret |
| seas_id | Identifiant de la saison | Numérique | YYYY | Ordinal |
| player_id | Identifiant du joueur | Numérique | N/A | Nominal |
Nombre d’observations : 30400
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison de l’attribution du prix | Texte | YYYY | Ordinal |
| lg | Ligue concernée par l’attribution | Texte | String | Nominal |
| type | Type de récompense | Texte | String | Nominal |
| number_tm | Nombre d’équipes sélectionnées | Numérique | Integer | Discret |
| player | Nom du joueur | Texte | String | Nominal |
| position | Position dans l’équipe sélectionnée | Texte | String | Nominal |
| seas_id | Identifiant de la saison | Numérique | N/A | Nominal |
| player_id | Identifiant du joueur | Numérique | N/A | Nominal |
| birth_year | Année de naissance du joueur | Texte | YYYY | Ordinal |
| tm | Équipe du joueur | Texte | String | Nominal |
| age | Âge du joueur | Numérique | Integer | Continu |
Nombre d’observations : 31136
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Texte | YYYY | Ordinal |
| lg | Ligue | Texte | String | Nominal |
| team | Équipe | Texte | String | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | N/A | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| mp_per_game | Minutes jouées par match | Numérique | Integer | Continu |
| opp_fg_per_game | Paniers adverses réussis par match | Numérique | Integer | Continu |
| opp_fga_per_game | Tentatives de paniers adverses par match | Numérique | Integer | Continu |
| opp_fg_percent | Pourcentage de réussite des paniers adverses | Numérique | Percentage | Continu |
| opp_x3p_per_game | Paniers à 3 points adverses réussis par match | Numérique | Integer | Continu |
| opp_x3pa_per_game | Tentatives de paniers à 3 points adverses par match | Numérique | Integer | Continu |
| opp_x3p_percent | Pourcentage de réussite des paniers à 3 points adverses | Numérique | Percentage | Continu |
| opp_x2p_per_game | Paniers à 2 points adverses réussis par match | Numérique | Integer | Continu |
| opp_x2pa_per_game | Tentatives de paniers à 2 points adverses par match | Numérique | Integer | Continu |
| opp_x2p_percent | Pourcentage de réussite des paniers à 2 points adverses | Numérique | Percentage | Continu |
| opp_ft_per_game | Lancers francs adverses réussis par match | Numérique | Integer | Continu |
| opp_fta_per_game | Tentatives de lancers francs adverses par match | Numérique | Integer | Continu |
| opp_ft_percent | Pourcentage de réussite des lancers francs adverses | Numérique | Percentage | Continu |
| opp_orb_per_game | Rebonds offensifs adverses par match | Numérique | Integer | Continu |
| opp_drb_per_game | Rebonds défensifs adverses par match | Numérique | Integer | Continu |
| opp_trb_per_game | Rebonds totaux adverses par match | Numérique | Integer | Continu |
| opp_ast_per_game | Passes décisives adverses par match | Numérique | Integer | Continu |
| opp_stl_per_game | Interceptions adverses par match | Numérique | Integer | Continu |
| opp_blk_per_game | Contres adverses par match | Numérique | Integer | Continu |
| opp_tov_per_game | Pertes de balle adverses par match | Numérique | Integer | Continu |
| opp_pf_per_game | Fautes personnelles adverses par match | Numérique | Integer | Continu |
| opp_pts_per_game | Points adverses par match | Numérique | Integer | Continu |
Nombre d’observations : 31136
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Numérique | YYYY | Continu |
| lg | Ligue | Texte | String | Nominal |
| team | Équipe | Texte | String | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | TRUE / FALSE | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| mp_per_game | Minutes jouées par match | Numérique | Integer | Continu |
| opp_fg | Total des paniers adverses réussis | Numérique | Integer | Continu |
| opp_fga | Total des Tentatives de paniers adverses | Numérique | Integer | Continu |
| opp_fg_percent | Pourcentage de réussite des paniers adverses | Numérique | Percentage | Continu |
| opp_x3p | Total des paniers à 3 points adverses réussis | Numérique | Integer | Continu |
| opp_x3pa | Total de paniers à 3 points adverses tentés | Numérique | Integer | Continu |
| opp_x3p_percent | Pourcentage de réussite des paniers à 3 points adverses | Numérique | Percentage | Continu |
| opp_x2p | Total des paniers à 2 points adverses réussis | Numérique | Integer | Continu |
| opp_x2pa | Total des paniers à 2 points adverses tentés | Numérique | Integer | Continu |
| opp_x2p_percent | Pourcentage de réussite des paniers à 2 points adverses | Numérique | Percentage | Continu |
| opp_ft | Total des lancers francs adverses réussis | Numérique | Integer | Continu |
| opp_fta | Total des lancers francs adverses tentés | Numérique | Integer | Continu |
| opp_ft_percent | Pourcentage de réussite des lancers francs adverses | Numérique | Percentage | Continu |
| opp_orb | Total des rebonds offensifs adverses | Numérique | Integer | Continu |
| opp_drb | Total des rebonds défensifs adverses | Numérique | Integer | Continu |
| opp_trb | Total des rebonds adverses | Numérique | Integer | Continu |
| opp_ast | Total des passes décisives adverses | Numérique | Integer | Continu |
| opp_stl | Total des interceptions adverses | Numérique | Integer | Continu |
| opp_blk | Total des contres adverses | Numérique | Integer | Continu |
| opp_tov | Total des pertes de balle adverses | Numérique | Integer | Continu |
| opp_pf | Total des fautes personnelles adverses | Numérique | Integer | Continu |
| opp_pts | Total des points adverses | Numérique | Integer | Continu |
Nombre d’observations : 31136
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Numérique | YYYY | Continu |
| lg | Ligue | Texte | String | Nominal |
| team | Équipe | Texte | String | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | TRUE / FALSE | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| mp | Minutes jouées | Numérique | Integer | Continu |
| opp_fg_per_100_poss | Paniers adverses réussis par 100 possessions | Numérique | Float | Continu |
| opp_fga_per_100_poss | Tentatives de paniers adverses par 100 possessions | Numérique | Float | Continu |
| opp_fg_percent | Pourcentage de réussite des paniers adverses | Numérique | Percentage | Continu |
| opp_x3p_per_100_poss | Paniers à 3 points adverses réussis par 100 possessions | Numérique | Float | Continu |
| opp_x3pa_per_100_poss | Paniers à 3 points adverses tentés par 100 possessions | Numérique | Float | Continu |
| opp_x3p_percent | Pourcentage de réussite des paniers à 3 points adverses | Numérique | Percentage | Continu |
| opp_x2p_per_100_poss | Paniers à 2 points adverses réussis par 100 possessions | Numérique | Float | Continu |
| opp_x2pa_per_100_poss | Paniers à 2 points adverses tentés par 100 possessions | Numérique | Float | Continu |
| opp_x2p_percent | Pourcentage de réussite des paniers à 2 points adverses | Numérique | Percentage | Continu |
| opp_ft_per_100_poss | Lancers francs adverses réussis par 100 possessions | Numérique | Float | Continu |
| opp_fta_per_100_poss | Lancers francs adverses tentés par 100 possessions | Numérique | Float | Continu |
| opp_ft_percent | Pourcentage de réussite des lancers francs adverses | Numérique | Percentage | Continu |
| opp_orb_per_100_poss | Rebonds offensifs adverses par 100 possessions | Numérique | Float | Continu |
| opp_drb_per_100_poss | Rebonds défensifs adverses par 100 possessions | Numérique | Float | Continu |
| opp_trb_per_100_poss | Total des rebonds adverses par 100 possessions | Numérique | Float | Continu |
| opp_ast_per_100_poss | Passes décisives adverses par 100 possessions | Numérique | Float | Continu |
| opp_stl_per_100_poss | Interceptions adverses par 100 possessions | Numérique | Float | Continu |
| opp_blk_per_100_poss | Contres adverses par 100 possessions | Numérique | Float | Continu |
| opp_tov_per_100_poss | Pertes de balle adverses par 100 possessions | Numérique | Float | Continu |
| opp_pf_per_100_poss | Fautes personnelles adverses par 100 possessions | Numérique | Float | Continu |
| opp_pts_per_100_poss | Points adverses par 100 possessions | Numérique | Float | Continu |
Nombre d’observations : 31136
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| seas_id | Identifiant de la saison | Numérique | Integer | Continu |
| season | Saison | Numérique | YYYY | Continu |
| player_id | Identifiant du joueur | Numérique | Integer | Continu |
| player | Joueur | Texte | String | Nominal |
| birth_year | Année de naissance du joueur | Numérique | YYYY | Continu |
| pos | Poste du joueur | Texte | String | Nominal |
| age | Âge du joueur | Numérique | AA | Continu |
| experience | Nombre d’années dans la ligue | Numérique | Integer | Continu |
| lg | Ligue | Texte | String | Nominal |
| tm | Équipe | Texte | String | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| gs | Nombre de matchs joués en tant que titulaire | Numérique | Integer | Continu |
| mp | Minutes jouées | Numérique | Integer | Continu |
| fg_per_100_poss | Paniers réussis par 100 possessions | Numérique | Float | Continu |
| fga_per_100_poss | Tentatives de paniers par 100 possessions | Numérique | Float | Continu |
| fg_percent | Pourcentage de réussite des paniers | Numérique | Percentage | Continu |
| x3p_per_100_poss | Paniers à 3 points réussis par 100 possessions | Numérique - Float | Continu | |
| x3pa_per_100_poss | Tentatives de paniers à 3 points par 100 possessions | Numérique | Float | Continu |
| x3p_percent | Pourcentage de réussite des paniers à 3 points | Numérique | Percentage | Continu |
| x2p_per_100_poss | Paniers à 2 points réussis par 100 possessions | Numérique | Float | Continu |
| x2pa_per_100_poss | Tentatives de paniers à 2 points par 100 possessions | Numérique | Float | Continu |
| x2p_percent | Pourcentage de réussite des paniers à 2 points | Numérique | Percentage | Continu |
| ft_per_100_poss | Lancers francs réussis par 100 possessions | Numérique | Float | Continu |
| fta_per_100_poss | Tentatives de lancers francs par 100 possessions | Numérique | Float | Continu |
| ft_percent | Pourcentage de réussite des lancers francs | Numérique | Percentage | Continu |
| orb_per_100_poss | Rebonds offensifs par 100 possessions | Numérique | Float | Continu |
| drb_per_100_poss | Rebonds défensifs par 100 possessions | Numérique | Float | Continu |
| trb_per_100_poss | Rebonds totaux par 100 possessions | Numérique | Float | Continu |
| ast_per_100_poss | Passes décisives par 100 possessions | Numérique | Float | Continu |
| stl_per_100_poss | Interceptions par 100 possessions | Numérique | Float | Continu |
| blk_per_100_poss | Contres par 100 possessions | Numérique | Float | Continu |
| tov_per_100_poss | Pertes de balle par 100 possessions | Numérique | Float | Continu |
| pf_per_100_poss | Fautes personnelles par 100 possessions | Numérique | Float | Continu |
| pts_per_100_poss | Points par 100 possessions | Numérique | Float | Continu |
| o_rtg | Offensive rating | Numérique | Integer | Continu |
| d_rtg | Defensive rating | Numérique | Integer | Continu |
Nombre d’observations : 31 136
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| seas_id | Identifiant de la saison | Numérique | Integer | Continu |
| season | Saison | Numérique | YYYY | Continu |
| player_id | Identifiant du joueur | Numérique | Integer | Continu |
| player | Joueur | Texte | String | Nominal |
| birth_year | Année de naissance du joueur | Numérique | YYYY | Continu |
| pos | Poste du joueur | Texte | String | Nominal |
| age | Âge du joueur | Numérique | AA | Continu |
| experience | Nombre d’années dans la ligue | Numérique | Integer | Continu |
| lg | Ligue | Texte | String | Nominal |
| tm | Équipe | Texte | String | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| gs | Nombre de matchs joués en tant que titulaire | Numérique | Integer | Continu |
| mp | Minutes jouées | Numérique | Integer | Continu |
| fg_per_36_min | Paniers réussis par 36 minutes | Numérique | Float | Continu |
| fga_per_36_min | Tentatives de paniers par 36 minutes | Numérique | Float | Continu |
| fg_percent | Pourcentage de réussite des paniers | Numérique | Percentage | Continu |
| x3p_per_36_min | Paniers à 3 points réussis par 36 minutes | Numérique | Float | Continu |
| x3pa_per_36_min | Tentatives de paniers à 3 points par 36 minutes | Numérique | Float | Continu |
| x3p_percent | Pourcentage de réussite des paniers à 3 points | Numérique | Percentage | Continu |
| x2p_per_36_min | Paniers à 2 points réussis par 36 minutes | Numérique | Float | Continu |
| x2pa_per_36_min | Tentatives de paniers à 2 points par 36 minutes | Numérique | Float | Continu |
| x2p_percent | Pourcentage de réussite des paniers à 2 points | Numérique | Percentage | Continu |
| ft_per_36_min | Lancers francs réussis par 36 minutes | Numérique | Float | Continu |
| fta_per_36_min | Tentatives de lancers francs par 36 minutes | Numérique | Float | Continu |
| ft_percent | Pourcentage de réussite des lancers francs | Numérique | Percentage | Continu |
| orb_per_36_min | Rebonds offensifs par 36 minutes | Numérique | Float | Continu |
| drb_per_36_min | Rebonds défensifs par 36 minutes | Numérique | Float | Continu |
| trb_per_36_min | Rebonds totaux par 36 minutes | Numérique | Float | Continu |
| ast_per_36_min | Passes décisives par 36 minutes | Numérique | Float | Continu |
| stl_per_36_min | Interceptions par 36 minutes | Numérique | Float | Continu |
| blk_per_36_min | Contres par 36 minutes | Numérique | Float | Continu |
| tov_per_36_min | Pertes de balle par 36 minutes | Numérique | Float | Continu |
| pf_per_36_min | Fautes personnelles par 36 minutes | Numérique | Float | Continu |
| pts_per_36_min | Points par 36 minutes | Numérique | Float | Continu |
Nombre d’observations : ?
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Numérique | YYYY | Continu |
| award | Prix | Texte | String | Nominal |
| player | Joueur | Texte | String | Nominal |
| age | Âge du joueur | Numérique | AA | Continu |
| tm | Équipe | Texte | String | Nominal |
| first | Nombre de votes pour la première place | Numérique | Integer | Continu |
| pts_won | Points gagnés dans le vote du prix question | Numérique | Integer | Continu |
| pts_max | Maximum de points possible à gagner | Numérique | Integer | Continu |
| share | Pourcentage des votes | Numérique | Percentage | Continu |
| winner | Vainqueur | Booléen | TRUE / FALSE | Nominal |
| seas_id | Identifiant de la saison | Numérique | Integer | Continu |
| player_id | Identifiant du joueur | Numérique | Integer | Continu |
Nombre d’observations : ?
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| player_id | Identifiant du joueur | Numérique | Integer | Continu |
| player | Joueur | Texte | String | Nominal |
| birth_year | Année de naissance du joueur | Numérique | YYYY | Continu |
| hof | Intégration du Hall Of Fame | Booléen | TRUE / FALSE | Nominal |
| num_seasons | Nombre de saisons passées dans la ligue | Numérique | Integer | Continu |
| first_seas | Année de la première saison | Numérique | Integer | Continu |
| last_seas | Année de la dernière saison | Numérique | Integer | Continu |
Nombre d’observations : 1841
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Texte | YYYY | Continu |
| lg | Ligue | Texte | NBA ou ABA ou BAA | Nominal |
| team | Équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | True ou False | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | 3 caractères (majuscule) | Nominal |
Nombre d’observations : 1402
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Texte | YYYY | Continu |
| lg | Ligue | Texte | NBA ou ABA ou BAA | Nominal |
| team | Équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | True ou False | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | 3 caractères (majuscule) | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| mp | Minutes jouées | Numérique | Integer | Continu |
| fg_per_100_poss | Paniers réussis | Numérique | Float | Continu |
| fga_per_100_poss | Tentatives de paniers | Numérique | Float | Continu |
| fg_percent | Pourcentage de réussite aux paniers | Numérique | 0 < Float < 1 | Continu |
| x3p_per_100_poss | Paniers à trois points réussis | Numérique | Float | Continu |
| x3pa_per_100_poss | Tentatives de paniers à trois points | Numérique | Float | Continu |
| x3p_percent | Pourcentage de réussite aux paniers à trois | Numérique | 0 < Float < 1 | Continu |
| x2p_per_100_poss | Paniers à deux points réussis | Numérique | Float | Continu |
| x2pa_per_100_poss | Tentatives de paniers à deux points | Numérique | Float | Continu |
| x2p_percent | Pourcentage de réussite aux paniers à deux | Numérique | 0 < Float < 1 | Continu |
| ft_per_100_poss | Lancers francs réussis | Numérique | Float | Continu |
| fta_per_100_poss | Tentatives de lancers francs | Numérique | Float | Continu |
| ft_percent | Pourcentage de réussite aux lancers francs | Numérique | 0 < Float < 1 | Continu |
| orb_per_100_poss | Rebonds offensifs | Numérique | Float | Continu |
| drb_per_100_poss | Rebonds défensifs | Numérique | Float | Continu |
| trb_per_100_poss | Total des rebonds | Numérique | Float | Continu |
| ast_per_100_poss | Passes décisives | Numérique | Float | Continu |
| stl_per_100_poss | Interceptions | Numérique | Float | Continu |
| blk_per_100_poss | Contres | Numérique | Float | Continu |
| tov_per_100_poss | Balles perdues | Numérique | Float | Continu |
| pf_per_100_poss | Fautes personnelles | Numérique | Float | Continu |
| pts_per_100_poss | Points | Numérique | Float | Continu |
Nombre d’observations : 1845
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Texte | YYYY | Continu |
| lg | Ligue | Texte | NBA ou ABA ou BAA | Nominal |
| team | Équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | True ou False | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | 3 caractères (majuscule) | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| mp_per_game | Minutes par match | Numérique | Float | Continu |
| fg_per_game | Paniers réussis par match | Numérique | Float | Continu |
| fga_per_game | Tentatives de paniers par match | Numérique | Float | Continu |
| fg_percent | Pourcentage de réussite aux paniers | Numérique | 0 < Float < 1 | Continu |
| x3p_per_game | Paniers à trois points réussis par match | Numérique | Float | Continu |
| x3pa_per_game | Tentatives de paniers à trois points | Numérique | Float | Continu |
| x3p_percent | Pourcentage de réussite aux paniers à trois | Numérique | 0 < Float < 1 | Continu |
| x2p_per_game | Paniers à deux points réussis par match | Numérique | Float | Continu |
| x2pa_per_game | Tentatives de paniers à deux points | Numérique | Float | Continu |
| x2p_percent | Pourcentage de réussite aux paniers à deux | Numérique | 0 < Float < 1 | Continu |
| ft_per_game | Lancers francs réussis par match | Numérique | Float | Continu |
| fta_per_game | Tentatives de lancers francs par match | Numérique | Float | Continu |
| ft_percent | Pourcentage de réussite aux lancers francs | Numérique | 0 < Float < 1 | Continu |
| orb_per_game | Rebonds offensifs par match | Numérique | Float | Continu |
| drb_per_game | Rebonds défensifs par match | Numérique | Float | Continu |
| trb_per_game | Total des rebonds par match | Numérique | Float | Continu |
| ast_per_game | Passes décisives par match | Numérique | Float | Continu |
| stl_per_game | Interceptions par match | Numérique | Float | Continu |
| blk_per_game | Contres par match | Numérique | Float | Continu |
| tov_per_game | Balles perdues par match | Numérique | Float | Continu |
| pf_per_game | Fautes personnelles par match | Numérique | Float | Continu |
| pts_per_game | Points par match | Numérique | Float | Continu |
Nombre d’observations : 1845
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Texte | YYYY | Continu |
| lg | Ligue | Texte | NBA ou ABA ou BAA | Nominal |
| team | Équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | True ou False | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | 3 caractères (majuscule) | Nominal |
| age | Âge moyen des joueurs de l’équipe | Numérique | Float | Continu |
| w | Victoires | Numérique | Integer | Continu |
| l | Défaites | Numérique | Integer | Continu |
| pw | Victoires pondérées | Numérique | Inter | Continu |
| pl | Défaites pondérées | Numérique | Float | Continu |
| mov | Marge de victoire moyenne | Numérique | Float | Continu |
| sos | Force de l’opposition (Permet d’évaluer la difficulté d’un calendrier en fonction du nombre de matchs disputés contre les mieux classés. Utile quand en NBA chaque équipe ne joue pas le même nombre de fois les unes contre les autres. La moyenne est fixée à zéro. Plus la note est haute et plus le calendrier est difficile.) | Numérique | Float | Continu |
| srs | Score relatif de l’équipe | Numérique | Float | Continu |
| o_rtg | Cote offensive | Numérique | Float | Continu |
| d_rtg | Cote défensive | Numérique | Float | Continu |
| n_rtg | Cote nette | Numérique | Float | Continu |
| pace | Estimation du nombre de possessions en 48 minutes | Numérique | Float | Continu |
| f_tr | Fréquence de lancer franc | Numérique | 0 < Float < 1 | Continu |
| x3p_ar | Taux de tentatives à trois points | Numérique | 0 < Float < 1 | Continu |
| ts_percent | Pourcentage de vrai tir | Numérique | 0 < Float < 1 | Continu |
| e_fg_percent | Pourcentage de tir effectif | Numérique | 0 < Float < 1 | Continu |
| tov_percent | Pourcentage de perte de balle | Numérique | Float | Continu |
| orb_percent | Pourcentage de rebond offensif | Numérique | Float | Continu |
| ft_fga | Ratio lancers francs par tentative de tir | Numérique | 0 < Float < 1 | Continu |
| opp_e_fg_percent | Pourcentage de tir effectif de l’adversaire | Numérique | 0 < Float < 1 | Continu |
| opp_tov_percent | Pourcentage de perte de balle de l’adversaire | Numérique | Float | Continu |
| opp_drb_percent | Pourcentage de rebond défensif de l’adversaire | Numérique | Float | Continu |
| opp_ft_fga | Ratio lancers francs de l’adversaire | Numérique | 0 < Float < 1 | Continu |
| arena | Arène où se déroulent les matchs | Texte | String | Nominal |
| attend | Nombre total de spectateurs | Numérique | Integer | Continu |
| attend_g | Nombre moyen de spectateurs par match | Numérique | Integer | Continu |
Nombre d’observations : 1845
| Attribut | Explication | Type | Format | Type de données |
|---|---|---|---|---|
| season | Saison | Texte | YYYY | Continu |
| lg | Ligue | Texte | NBA ou ABA ou BAA | Nominal |
| team | Équipe | Texte | String | Nominal |
| playoffs | Participation aux playoffs | Booléen | True ou False | Nominal |
| abbreviation | Abréviation de l’équipe | Texte | 3 caractères (majuscule) | Nominal |
| g | Nombre de matchs joués | Numérique | Integer | Continu |
| mp | Minutes jouées | Numérique | Integer | Continu |
| fg | Paniers réussis | Numérique | Integer | Continu |
| fga | Tentatives de paniers | Numérique | Integer | Continu |
| fg_percent | Pourcentage de réussite aux paniers | Numérique | 0 < Float < 1 | Continu |
| x3p | Paniers à trois points réussis | Numérique | Integer | Continu |
| x3pa | Tentatives de paniers à trois points | Numérique | Integer | Continu |
| x3p_percent | Pourcentage de réussite aux paniers à trois | Numérique | 0 < Float < 1 | Continu |
| x2p | Paniers à deux points réussis | Numérique | Integer | Continu |
| x2pa | Tentatives de paniers à deux points | Numérique | Integer | Continu |
| x2p_percent | Pourcentage de réussite aux paniers à deux | Numérique | 0 < Float < 1 | Continu |
| ft | Lancers francs réussis | Numérique | Integer | Continu |
| fta | Tentatives de lancers francs | Numérique | Integer | Continu |
| ft_percent | Pourcentage de réussite aux lancers francs | Numérique | 0 < Float < 1 | Continu |
| orb | Rebonds offensifs | Numérique | Integer | Continu |
| drb | Rebonds défensifs | Numérique | Integer | Continu |
| trb | Total des rebonds | Numérique | Integer | Continu |
| ast | Passes décisives | Numérique | Integer | Continu |
| stl | Interceptions | Numérique | Integer | Continu |
| blk | Contres | Numérique | Integer | Continu |
| tov | Balles perdues | Numérique | Integer | Continu |
| pf | Fautes personnelles | Numérique | Integer | Continu |
| pts | Points | Numérique | Integer | Continu |
Nombre d’observations: 31815
| Attribut | Explication | Type | Type de donnée | Format de la donnée |
|---|---|---|---|---|
| seas_id | Identifiant de la saison | Numérique | Nominal | Integer |
| season | Saison de la ligue | Texte | Nominal | Texte |
| player_id | Identifiant du joueur | Numérique | Nominal | Integer |
| player | Nom du joueur | Texte | Nominal | Texte |
| birth_year | Année de naissance du joueur | Numérique | Ordinale | YYYY |
| pos | Position du joueur sur le terrain | Texte | Nominal | Texte |
| age | Âge du joueur | Numérique | Continu | Integer |
| experience | Nombre d’années d’expérience en ligue | Numérique | Continu | Integer |
| lg | Ligue dans laquelle le joueur évolue | Texte | Nominal | Texte |
| tm | Équipe du joueur | Texte | Nominal | Texte |
| g | Nombre de matchs joués | Numérique | Continu | Integer |
| gs | Nombre de matchs joués en tant que titulaire | Numérique | Continu | Integer |
| mp_per_game | Minutes jouées par match | Numérique | Continu | Integer |
| fg_per_game | Paniers réussis par match | Numérique | Continu | Integer |
| fga_per_game | Tentatives de paniers par match | Numérique | Continu | Integer |
| fg_percent | Pourcentage de réussite des paniers | Numérique | Continu | Pourcentage |
| x3p_per_game | Paniers à 3 points réussis par match | Numérique | Continu | Integer |
| x3pa_per_game | Tentatives de paniers à 3 points par match | Numérique | Continu | Integer |
| x3p_percent | Pourcentage de réussite des paniers à 3 points | Numérique | Continu | Pourcentage |
| x2p_per_game | Paniers à 2 points réussis par match | Numérique | Continu | Integer |
| x2pa_per_game | Tentatives de paniers à 2 points par match | Numérique | Continu | Integer |
| x2p_percent | Pourcentage de réussite des paniers à 2 points | Numérique | Continu | Pourcentage |
| e_fg_percent | Pourcentage de réussite des tirs effectifs | Numérique | Continu | Pourcentage |
| ft_per_game | Lancers francs réussis par match | Numérique | Continu | Integer |
| fta_per_game | Tentatives de lancers francs par match | Numérique | Continu | Integer |
| ft_percent | Pourcentage de réussite des lancers francs | Numérique | Continu | Pourcentage |
| orb_per_game | Rebonds offensifs par match | Numérique | Continu | Integer |
| drb_per_game | Rebonds défensifs par match | Numérique | Continu | Integer |
| trb_per_game | Total des rebonds par match | Numérique | Continu | Integer |
| ast_per_game | Passes décisives par match | Numérique | Continu | Integer |
| stl_per_game | Interceptions par match | Numérique | Continu | Integer |
| blk_per_game | Contres par match | Numérique | Continu | Integer |
| tov_per_game | Pertes de balles par match | Numérique | Continu | Integer |
| pf_per_game | Fautes personnelles par match | Numérique | Continu | Integer |
| pts_per_game | Points marqués par match | Numérique | Continu | Integer |
Nombre d’observations : 16730
| Attribut | Explication | Type | Type de donnée | Format de la donnée |
|---|---|---|---|---|
| seas_id | Identifiant de la saison | Numérique | Nominal | Integer |
| season | Saison de la ligue | Texte | Nominal | Texte |
| player_id | Identifiant du joueur | Numérique | Nominal | Integer |
| player | Nom du joueur | Texte | Nominal | Texte |
| birth_year | Année de naissance du joueur | Numérique | Ordinal | YYYY |
| pos | Position du joueur sur le terrain | Texte | Nominal | Texte |
| age | Âge du joueur | Numérique | Continu | Integer |
| experience | Nombre d’années d’expérience en ligue | Numérique | Continu | Integer |
| lg | Ligue dans laquelle le joueur évolue | Texte | Nominal | Texte |
| tm | Équipe du joueur | Texte | Nominal | Texte |
| g | Nombre de matchs joués | Numérique | Continu | Integer |
| mp | Minutes jouées par match | Numérique | Continu | Integer |
| fg_percent | Pourcentage de réussite des tirs | Numérique | Continu | Pourcentage |
| sg_percent | Pourcentage de réussite des tirs au poste de shooting guard | Numérique | Continu | Pourcentage |
| sf_percent | Pourcentage de réussite des tirs au poste de small forward | Numérique | Continu | Pourcentage |
| pf_percent | Pourcentage de réussite des tirs au poste de power forward | Numérique | Continu | Pourcentage |
| c_percent | Pourcentage de réussite des tirs au poste de center | Numérique | Continu | Pourcentage |
| on_court_plus_minus_per_100_poss | Différentiel de points marqués par 100 possessions quand sur le terrain | Numérique | Continu | Integer |
| net_plus_minus_per_100_poss | Différentiel de points nets par 100 possessions | Numérique | Continu | Integer |
| bad_pass_turnover | Nombre de pertes de balle dues à des mauvaises passes | Numérique | Continu | Integer |
| lost_ball_turnover | Nombre de pertes de balle dues à des balles perdues | Numérique | Continu | Integer |
| shooting_foul_committed | Nombre de fautes de tir commises | Numérique | Continu | Integer |
| offensive_foul_committed | Nombre de fautes offensives commises | Numérique | Continu | Integer |
| shooting_foul_drawn | Nombre de fautes de tir subies | Numérique | Continu | Integer |
| offensive_foul_drawn | Nombre de fautes offensives subies | Numérique | Continu | Integer |
| points_generated_by_assists | Points générés par des passes décisives | Numérique | Continu | Integer |
| and1 | Nombre de tirs réussis malgré une faute et convertis en un panier supplémentaire | Numérique | Continu | Integer |
| fga_blocked | Nombre de tentatives de tirs bloquées | Numérique | Continu | Integer |
Nombre d’observations : 31815
| Attribut | Explication | Type | Type de donnée | Format de la donnée |
|---|---|---|---|---|
| season | Saison de la ligue | Texte | Nominal | Texte |
| seas_id | Identifiant de la saison | Numérique | Nominal | Integer |
| player_id | Identifiant du joueur | Numérique | Nominal | Integer |
| player | Nom du joueur | Texte | Nominal | Texte |
| birth_year | Année de naissance du joueur | Numérique | Ordinal | YYYY |
| pos | Position du joueur sur le terrain | Texte | Nominal | Texte |
| age | Âge du joueur | Numérique | Continu | Integer |
| lg | Ligue dans laquelle le joueur évolue | Texte | Nominal | Texte |
| tm | Équipe du joueur | Texte | Nominal | Texte |
| experience | Nombre d’années d’expérience en ligue | Numérique | Continu | Integer |
Nombre d’observations : 16730
| Attribut | Explication | Type | Type de donnée | Format de la donnée |
|---|---|---|---|---|
| seas_id | Identifiant de la saison | Numérique | Nominal | Integer |
| season | Saison de la ligue | Texte | Nominal | Texte |
| player_id | Identifiant du joueur | Numérique | Nominal | Integer |
| player | Nom du joueur | Texte | Nominal | Texte |
| birth_year | Année de naissance du joueur | Numérique | Ordinal | YYYY |
| pos | Position du joueur sur le terrain | Texte | Nominal | Texte |
| age | Âge du joueur | Numérique | Continu | Integer |
| experience | Nombre d’années d’expérience en ligue | Numérique | Continu | Integer |
| lg | Ligue dans laquelle le joueur évolue | Texte | Nominal | Texte |
| tm | Équipe du joueur | Texte | Nominal | Texte |
| g | Nombre de matchs joués | Numérique | Continu | Integer |
| mp | Minutes jouées par match | Numérique | Continu | Integer |
| fg_percent | Pourcentage de réussite des tirs | Numérique | Continu | Pourcentage |
| avg_dist_fga | Distance moyenne des tentatives de tirs | Numérique | Continu | Integer |
| percent_fga_from_x2p_range | Pourcentage de tentatives de tirs provenant de 2 points | Numérique | Continu | Pourcentage |
| percent_fga_from_x0_3_range | Pourcentage de tentatives de tirs provenant de 0-3 pieds | Numérique | Continu | Pourcentage |
| percent_fga_from_x3_10_range | Pourcentage de tentatives de tirs provenant de 3-10 pieds | Numérique | Continu | Pourcentage |
| percent_fga_from_x10_16_range | Pourcentage de tentatives de tirs provenant de 10-16 pieds | Numérique | Continu | Pourcentage |
| percent_fga_from_x16_3p_range | Pourcentage de tentatives de tirs provenant de 16 pieds-3 points | Numérique | Continu | Pourcentage |
| percent_fga_from_x3p_range | Pourcentage de tentatives de tirs à 3 points | Numérique | Continu | Pourcentage |
| fg_percent_from_x2p_range | Pourcentage de réussite des tirs provenant de 2 points | Numérique | Continu | Pourcentage |
| fg_percent_from_x0_3_range | Pourcentage de réussite des tirs provenant de 0-3 pieds | Numérique | Continu | Pourcentage |
| fg_percent_from_x3_10_range | Pourcentage de réussite des tirs provenant de 3-10 pieds | Numérique | Continu | Pourcentage |
| fg_percent_from_x10_16_range | Pourcentage de réussite des tirs provenant de 10-16 pieds | Numérique | Continu | Pourcentage |
| fg_percent_from_x16_3p_range | Pourcentage de réussite des tirs provenant de 16 pieds-3 points | Numérique | Continu | Pourcentage |
| fg_percent_from_x3p_range | Pourcentage de réussite des tirs à 3 points | Numérique | Continu | Pourcentage |
| percent_assisted_x2p_fg | Pourcentage de paniers à 2 points assistés | Numérique | Continu | Pourcentage |
| percent_assisted_x3p_fg | Pourcentage de paniers à 3 points assistés | Numérique | Continu | Pourcentage |
| percent_dunks_of_fga | Pourcentage de dunks parmi les tentatives de tirs | Numérique | Continu | Pourcentage |
| num_of_dunks | Nombre de dunks | Numérique | Continu | Integer |
Nombre d’observations : 31815
| Attribut | Explication | Type | Type de donnée | Format de la donnée |
|---|---|---|---|---|
| seas_id | Identifiant de la saison | Numérique | Nominal | Integer |
| season | Saison de la ligue | Texte | Nominal | Texte |
| player_id | Identifiant du joueur | Numérique | Nominal | Integer |
| player | Nom du joueur | Texte | Nominal | Texte |
| birth_year | Année de naissance du joueur | Numérique | Ordinal | YYYY |
| pos | Position du joueur sur le terrain | Texte | Nominal | Texte |
| age | Âge du joueur | Numérique | Continu | Integer |
| experience | Nombre d’années d’expérience en ligue | Numérique | Continu | Integer |
| lg | Ligue dans laquelle le joueur évolue | Texte | Nominal | Texte |
| tm | Équipe du joueur | Texte | Nominal | Texte |
| g | Nombre de matchs joués | Numérique | Continu | Integer |
| gs | Nombre de matchs joués en tant que titulaire | Numérique | Continu | Integer |
| mp | Minutes jouées | Numérique | Continu | Integer |
| fg | Paniers réussis | Numérique | Continu | Integer |
| fga | Tentatives de paniers | Numérique | Continu | Integer |
| fg_percent | Pourcentage de réussite des paniers | Numérique | Continu | Pourcentage |
| x3p | Paniers à 3 points réussis | Numérique | Continu | Integer |
| x3pa | Tentatives de paniers à 3 points | Numérique | Continu | Integer |
| x3p_percent | Pourcentage de réussite des paniers à 3 points | Numérique | Continu | Pourcentage |
| x2p | Paniers à 2 points réussis | Numérique | Continu | Integer |
| x2pa | Tentatives de paniers à 2 points | Numérique | Continu | Integer |
| x2p_percent | Pourcentage de réussite des paniers à 2 points | Numérique | Continu | Pourcentage |
| e_fg_percent | Pourcentage de réussite des tirs effectifs | Numérique | Continu | Pourcentage |
| ft | Lancers francs réussis | Numérique | Continu | Integer |
| fta | Tentatives de lancers francs | Numérique | Continu | Integer |
| ft_percent | Pourcentage de réussite des lancers francs | Numérique | Continu | Pourcentage |
| orb | Rebonds offensifs | Numérique | Continu | Integer |
| drb | Rebonds défensifs | Numérique | Continu | Integer |
| trb | Total des rebonds | Numérique | Continu | Integer |
| ast | Passes décisives | Numérique | Continu | Integer |
| stl | Interceptions | Numérique | Continu | Integer |
| blk | Contres | Numérique | Continu | Integer |
| tov | Pertes de balle | Numérique | Continu | Integer |
| pf | Fautes personnelles | Numérique | Continu | Integer |
| pts | Points marqués | Numérique | Continu | Integer |
Voici les questions que nous avons élaboré pour pouvoir étudier notre jeu de données :
Description : En effet, lorsqu’on se pose cette
question, nous voudrons savoir si le MVP a un grand impact sur la
qualification de son équipe au play-offs ou il est aussi important de
comparer combien de fois le MVP n’a pas été qualifié en playoffs ou n’a
pas remporté le championnat. Il est important de répondre à cette
question afin de comprendre si l’aspect individuel ou collectif est le
plus important à la victoire ainsi cela va nous montrer si la présence
de joueur star va être synonyme de succès. Nous pensons obtenir des
informations montrant que l’aspect collectif du basket est plus
important que l’aspect individuel donc il peut y avoir plusieurs saisons
où le MVP n’est pas forcément gagnant des play-offs.
Sources des données : Pour pouvoir répondre à cette
question, nous allons utiliser les fichiers End Of Season Teams et le
Player Career Info où il y a les variables suivantes : MVP, la
qualification en playoffs pour chaque équipe et le statut de champion
pour chaque équipe. En répondant à cette question, nous pouvons
rencontrer les problèmes suivants : Les équipes peuvent changer de
composition d’une saison à l’autre, rendant la comparaison moins
directe. Des facteurs externes tels que les blessures, les transactions
de joueurs, ou d’autres événements inattendus peuvent influencer les
résultats. Il peut y avoir des saisons où le MVP est clairement défini,
tandis que dans d’autres, il peut y avoir plusieurs prétendants
sérieux.
Visualisations possibles :
Description : Lorsque nous abordons la différence entre
le basket d’aujourd’hui et celui d’autrefois, nous souhaitons savoir
comment le style de jeu a évolué au fils des années est ce que les
équipes sont plus offensives, est ce que les équipes marquent plus en
trois points … La réponse à cette question va nous mettre en lumière la
manière dont ce sport a évolué au fils des années.
Sources des données : Pour obtenir des informations
pertinentes, nous souhaitons comparer des variables telles que les
statistiques de jeu (points marqués, pourcentage de tirs réussis,
rebonds, passes décisives, etc.) mais aussi les caractéristiques des
joueurs ainsi à travers cela nous pourrons aussi déceler le style de jeu
des équipes. Pour répondre à la question, nous allons utiliser
différents fichiers de notre dataset comme le Per 36 Minutes, Player
Season Info et beaucoup d’autres …
Visualisations possibles :
Une visualisation adaptée à cette analyse serait un graphique en barres ou un graphique linéaire montrant l’évolution des différentes variables au fil du temps, permettant ainsi une comparaison visuelle claire entre le basket d’autrefois et celui d’aujourd’hui.
Description : En se posant cette question, on
s’interroge sur la corrélation qu’il pourrait y avoir entre la moyenne
d’âge d’une équipe et ses performances, si les équipes plus jeunes et
qui manquent d’expérience peuvent être compétitives dans la ligue, ou
alors au contraire elles sont dépassés par les équipes expérimentées
avec des vétérans dont la moyenne d’âge est par conséquent plus
grande.Cette question s’avère particulièrement pertinente en raison de
son impact potentiel sur les stratégies de gestion d’équipe notamment au
niveau du recrutement des différents profils des joueurs, ou encore la
dynamique et l’équilibre parfait entre jeunesse et expérience.
Sources des données : Pour pouvoir répondre à cette
question nous allons faire appel à plusieurs données présentes dans le
tableau Team Summaries, dont premièrement la saison ( season) et
l’équipe concernée ( team). On aura aussi besoin de la donnée “age” qui
représente la moyenne d’âge de chaque équipe. Pour représenter les
performances de l’équipe, on pourra s’intéresser à la variable
“playoffs” qui est un booléen qui montre si l’équipe s’est qualifiée en
playoffs ou pas, ou alors “w” qui représente le nombre de victoires de
chaque équipe, ou encore la force de l’opposition(sos).
Visualisations possibles :
Description : En se posant cette question, nous allons
nous interroger sur la corrélation entre les performances d’une équipe,
que ce soit le nombre de victoires, sa participation en playoffs etc, et
l’affluence des supporters dans l’arène de l’équipe. Cela revient à se
demander si les fans sont influencés par les résultats sportifs
lorsqu’ils décident d’assister à un match en personne, ce qui peut avoir
un impact sur la billetterie et stratégie marketing etc., ou alors au
contraire si l’affluence dans l’arène a un impact sur les performances
de l’équipe ce qui pourrait fournir des informations cruciales sur la
dynamique entre le soutien des fans et les résultats sportifs.
Sources des données : Pour pouvoir répondre à cette
question nous avons à disposition le tableau Team Summaries, qui va nous
fournir comme données l’équipe (team) et la saison ( season). Pour
représenter l’affluence nous avons comme données “arena”, le nom de
l’arène de l’équipe, “attend” l’affluence totale au cours de la saison,
et “attend_g” l’affluence moyenne par match lors de cette saison là.
Pour mesurer les performances, on a “playoffs” qui est un booléen qui
montre si l’équipe s’est qualifiée en playoffs ou pas, ou alors “w” qui
représente le nombre de victoires de chaque équipe, ou encore la force
de l’opposition(sos).
Visualisations possibles :
Description : Cette question cherche à déterminer à
partir de quel âge les performances des joueurs de basketball
professionels commencent à décliner. En effet, nous savons que l’âge
peut avoir de nombreuses conséquences sur le coprs que ce soit mental ou
physique avec par exemple une baisse de motivation après de nombreuses
années à haut niveau ou de moins bons réflexes, moins de tonus
musculaire… Nous allons examiner les données des saisons passées en NBA
pour identifier les tendances de performance en fonction de l’âge des
joueurs. Cela nous permettra de comprendre à quel moment les joueurs
commencent généralement à montrer des signes de déclin physique ou de
diminution de leurs performances. On pourra également
Sources des données : Nous utiliserons principalement le
fichier “Player Totals” qui fournit des informations sur les
performances des joueurs au fil du temps, y compris leur âge. Nous
pourrons également consulter d’autres fichiers tels que “Player
Shooting” pour obtenir des statistiques détaillées sur les performances
des joueurs au niveau des tirs particulièrement. Nous pourrons utiliser
les fichiers “Player Play By Play” et “Player Per Game” pour avoir des
données sur le temps de jeu du joueur, des statistiques de défense…
Visualisations possibles :
Description : Nous allons essayer de déterminer s’il
existe une relation entre les performances individuelles des joueurs
clés d’une équipe de basket et le succès global de cette équipe. Nous
allons examiner les données mises à notre disposition pour évaluer la
corrélation entre les performances des joueurs clés (tels que les
meilleurs marqueurs, les MVP…) et les résultats de l’équipe
(qualification en playoffs, succès en playoffs…).
Sources des données : Les fichiers “Advance”, “Per 100
Poss”, “Player Awards Shares”, “Player Career Info”, “Team Summaries”
seront principalement utilisés pour obtenir les performances
individuelles des joueurs clés et les corréler avec les résultats de
leur l’équipe.
Visualisations possibles :
Description : En se posant cette question, nous
cherchons à savoir s’il y a une corrélation entre les performances d’une
équipe et le nombre de fautes qu’elle réalise. Cela permettra de voir si
les fautes font baisser le moral des joueurs de l’équipe et se répercute
sur les performances du groupe négativement, ou si, au contraire les
fautes motivé les joueurs et ont donc un effet bénéfique sur les
performances de l’équipe.
Sources des données : Pour récupérer les données sur les
fautes, il y a plusieurs options possibles. Tout d’abord, nous pouvons
éliminer les fichiers répertoriant les données des adversaires ( fichier
“…opp…” ) car nous nous intéressons aux fautes des joueurs de l’équipe.
Pour cela, il faut donc se baser sur les fichiers “Per 100 Poss.csv”,
“Per 36 Minutes.csv”, “Team Stats per 100 Poss.csv”, “Team Stats Per
Game.csv” et “Team Totals.csv”. Quant aux performances de l’équipe, nous
pourrons donc étudier le nombre de victoires ou encore le nombre de
points.
Visualisations possibles :
Description : Cette dernière question va nous permettre
de découvrir si le style de jeu de la NBA se tourne plus vers du
spectacle qu’avant. En effet, nous cherchons à savoir si, par match, le
nombre de points évolue et si la nature de ces derniers est différents
du passé.
Sources des données : Pour étudier cette question, nous
allons avoir besoin de différentes données. Pour chacune de ces données,
l’objectif va être de récupérer des valeurs les plus vieilles possible
et de les comparer à des valeurs les plus récentes possible. Pour cela,
nous pourrons comparer le nombre de points par match (fichier “Team
Totals.csv”, attribut pts) ou encore le nombre de tentatives de tir à
trois points (attribut x3p disponible dans plusieurs fichiers comme
“Team Totals.csv” ou “Advance.csv”).
Visualisations possibles :
En ce posant cette question, nous avons pour but de déterminer si le MVP (le meilleur joueur de la saison) permet à son équipe de participer à tous les coups aux playoffs et d’ensuite gagner la compétition. Pour répondre à cette question, nous allons utiliser les fichiers Player Award Shares afin de récupérer le MVP de chaque année et le fichier Player Totals pour récupérer son équipe. Nous utiliserons aussi le fichier Team Summaries pour savoir qu’elle est l’équipe gagnante de chaque saison (l’équipe gagnante est celle qui a gagné le plus de match). Ainsi, on pourrait imaginer que l’équipe possédant le meilleur joueur de la saison est forcément qualifiée pour aller en playoff et qu’elle a de grandes chances de gagner la compétition.
Pour récolter les données permettant de répondre à cette question, nous avons commencé par récupérer les MVP de chaque saison dans le fichier Player Award Shares. Ensuite, nous avons trouvé, pour chaque saison, qu’elle était l’équipe qui contenait le MVP dans le fichier Player Totals. Une fois cela fait, nous avons pu récupérer les équipes vainqueures de la compétition chaque saison. Il nous a ensuite suffi de comparer à chaque saison si l’équipe gagne la compétition est l’équipe qui contient le MVP.
En analysant ces diagrammes, nous pouvons donc constater une très forte corrélation entre le fait qu’une équipe qui contient le joueur avec le plus de valeur arrive en playoff. Depuis 1956, pratiquement toutes les équipes contenant ce joueur arrivent à se qualifier. Ensuite, nous pouvons constater que depuis 1956, environ deux tiers des équipes contenant le MVP arrive à gagner la compétition et remporter le titre de champion de la NBA. Les résultats de ces deux diagrammes circulaires peuvent s’expliquer par plusieurs faits. Le meilleur joueur de la saison apporte déjà beaucoup d’un point de vue sportif en marquant beaucoup de panier, réalisant beaucoup de contre-attaque et en ayant des forts pourcentages de réussite au tir, mais, ce dernier apporte aussi beaucoup d’un point de vue sportif en motivant ses coéquipiers tout au long de la saison.
Ainsi, grâce à ces diagrammes, nous pouvons donc répondre à la question par “Non, le MVP n’est pas forcément qualifié au playoff et non, il ne gagne pas forcément la compétition”. Cependant, une équipe possédant ce joueur voit drastiquement augmenter ces chances de gagner le titre de champion et posséder un tel joueur apporte un énorme avantage à l’équipe.
Dans cette partie, nous allons nous intéresser à la question suivante : Quelle est la différence entre le basket d’aujourd’hui et celui d’autrefois ? Pour répondre à cette question nous avons utilisé le fichier Team Summaries qui renferment plusieurs informations importantes pour répondre à cette question notamment les stats de jeu comme le nombres de tirs, de rebonds de trois points… Au cours de l’exploration de ce jeu de données, nous avons remarqué quelques données erronés dans certaines années notamment avant 1965 qui ont ainsi été mise de coté pour ne pas fausser les résultats. Nous avons aussi remarqué que les données sont assez complètes et détaillées et ne contiennet pas de valeurs manquantes. Nous avons décidé de nous focaliser de 1965 à 2024 pour répondre à notre question afin d’avoir un large spectre de comparaison pour voir l’évolution au courant de toute l’histoire de la NBA.
Concernant notre jeu de données sur la NBA, nous avons décidé de nous focaliser sur les points marqués par match, le pourcentage de réussite des tirs à trois points et le nombre de rebonds par match. Nous avons donc décidé de regrouper les années par tranches de 5 ans, en commençant à partir de 1965. Nous avons ensuite calculé les statistiques moyennes pour chaque période de 5 ans. Enfin, nous avons utilisé une palette de couleurs distinctes pour visualiser les données de manière plus attrayante.
Dans un premier temps, nous remarquons que le nombre de points marqués par match a augmenté de manière significative au fil des années, passant d’une moyenne d’environ 100 points par match dans les années 1965-1970 à plus de 110 points par match dans les années 2015-2020. Cette augmentation peut être due à plusieurs facteurs, tels que l’évolution des règles du jeu, l’amélioration des techniques de jeu et l’augmentation de la qualité des joueurs.
Dans un second temps, nous pouvons aussi ajouter pour le nombre de points marqués qu’il y a des années où il y a vraiment eu un grand nombres de points marqués comme dans les années 1985-1990 et 2015-2020 où ce sont des annés marqués par l’arrivée de joueurs stars comme Michael Jordan ou encore Stephen Curry qui ont marqué l’histoire de la NBA.
A contratio, il y a des années où le nombre de points marqués est plus bas comme dans les années 1970-1975 et 1990-1995 où le jeu était plus défensif et les équipes marquaient moins de points.
En conclusion, nous pouvons dire que le basket d’aujourd’hui est plus offensif que celui d’autrefois, avec une augmentation significative du nombre de points marqués par match au fil des années à cause de l’évolution des règles du jeu, l’amélioration des techniques de jeu et l’augmentation de la qualité des joueurs.
Dans ce graphique montrant l’évolution du pourcentage de tirs à trois points, nous pouvons constater une augmentation significative de ce pourcentage au fil des années. Cela s’explique par l’évolution des stratégies de jeu et des techniques de tir, ainsi que par l’importance croissante accordée aux tirs à trois points dans le basket moderne.
Les équipes ont de plus en plus recours à ce type de tir pour augmenter leur efficacité offensive et s’adapter aux nouvelles tendances du jeu. Ainsi, le basket d’aujourd’hui se caractérise par une utilisation plus fréquente et plus efficace des tirs à trois points par rapport à celui d’autrefois.
En effet, nous pouvons observer que durant les années 1965-1970, le pourcentage de tirs à trois points était très faible, ce qui s’explique par le fait que cette règle n’était pas encore intégrée dans le jeu. Cependant, au fil des années, ce pourcentage a augmenté de manière significative, atteignant des niveaux beaucoup plus élevés dans les années récentes. Cette évolution témoigne de l’importance croissante des tirs à trois points dans le jeu moderne de la NBA.
Par ailleurs, nous pouvons ajouter que durant les années 2020-2024, le pourcentage de tirs à trois points a atteint des niveaux record, ce qui reflète la tendance actuelle du jeu à privilégier les tirs extérieurs et à exploiter au maximum cette arme offensive cela peut s’expliquer à travers la présence de joueurs talentueyx dans ce domaine comme Stephen Curry, Klay Thompson ou encore James Harden qui ont révolutionné le jeu en étant des spécialistes du tir à trois points.
En conclusion, le basket d’aujourd’hui se caractérise par une utilisation plus fréquente et plus efficace des tirs à trois points par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de tir dans la NBA moderne.
Dans ce graphique montrant l’évolution des rebonds moyens par match, nous pouvons constater une tendance générale à la baisse du nombre de rebonds au fil des années. Cela peut s’expliquer par plusieurs facteurs, tels que l’évolution des stratégies de jeu, l’augmentation de la vitesse du jeu et la diminution du nombre de rebonds offensifs.
En effet, nous pouvons observer que le nombre de rebonds par match était plus élevé dans les années 1970-1980 avec une moyenne de 100 rebonds, ce qui s’explique par le jeu plus physique et plus défensif de cette époque. Les équipes accordaient une plus grande importance aux rebonds pour contrôler le jeu et limiter les possessions adverses avec des bons joueurs dans ce domaine.
Par ailleurs, nous pouvons constater que le nombre de rebonds a diminué progressivement au fil des années, atteignant des niveaux plus bas dans les années récentes avec environ 99.6 rebonds en moyenne. Cette évolution peut être due à l’augmentation de la vitesse du jeu, à l’importance croissante des tirs à trois points et à la diminution du nombre de rebonds offensifs.
En conclusion, le basket d’aujourd’hui se caractérise par une diminution du nombre de rebonds par match par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de jeu dans la NBA moderne. Les équipes accordent moins d’importance aux rebonds et privilégient d’autres aspects du jeu pour maximiser leur efficacité offensive et défensive.
Pour conlure la question posée, nous pouvons dire que le basket d’aujourd’hui est plus offensif que celui d’autrefois, avec une augmentation significative du nombre de points marqués par match au fil des années à cause de l’évolution des règles du jeu, l’amélioration des techniques de jeu et l’augmentation de la qualité des joueurs. De plus, le basket d’aujourd’hui se caractérise par une utilisation plus fréquente et plus efficace des tirs à trois points par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de tir dans la NBA moderne. Enfin, le basket d’aujourd’hui se caractérise par une diminution du nombre de rebonds par match par rapport à celui d’autrefois, ce qui témoigne de l’évolution des stratégies de jeu et des techniques de jeu dans la NBA moderne. Les équipes accordent moins d’importance aux rebonds et privilégient d’autres aspects du jeu pour maximiser leur efficacité offensive et défensive.
Dans cette partie nous allons nous intéresser à la question suivante : Existe-t-il une corrélation entre la moyenne d’âge d’une équipe et son classement dans la saison régulière ? Cette interrogation vise à comprendre s’il existe un lien entre l’âge moyen des membres d’une équipe et ses performances dans la ligue. Nous nous demandons si les équipes plus jeunes, manquant potentiellement d’expérience, peuvent rivaliser avec succès dans la ligue, ou si au contraire, elles sont surpassées par des équipes plus expérimentées, comptant davantage de vétérans et donc affichant une moyenne d’âge plus élevée. Pour y répondre, nous allons utiliser le fichier Team Summaries et nous intéressés à plusieurs données dont premièrement la saison ( season) et l’équipe concernée ( team). On aura aussi besoin de la donnée “age” qui représente la moyenne d’âge de chaque équipe. Pour représenter les performances de l’équipe, on pourra s’intéresser à la variable “playoffs” qui est un booléen qui montre si l’équipe s’est qualifiée en playoffs ou pas, ou alors “w” qui représente le nombre de victoires de chaque équipe, ou encore la force de l’opposition(sos).
Dans ce graphique, nous avons décidé de représenter le nombre de victoires des équipes NBA en fonction de leur moyenne d’age et ce durant la saison 2023 que nous avons pris comme exemple. Nous avons eu besoin des colonnes age, w,team et abbreviation pour pouvoir réaliser ce graphique. Nous avons aussi rendu le graphique intéractif à l’aide de plotly en affichant les informations sur les équipes lorsqu’on passe le curseur dessus. Premièrement,le graphique montre une tendance générale où les équipes avec un âge moyen plus élevé ont tendance à avoir un plus grand nombre de victoires, on remarque tout de meme une assez grande dispertion des données, et nous allons essayer d’expliquer celà. Prenons par exemple les trois équipes ayant gagné le plus de matchs lors de la saison réguliere 2023, il s’agit des Milwaukee Bucks( moyenne d’age 29.8), les Boston Celtics ( moyenne d’age 27.4) et Philadelphia 76ers ( moyenne d’age 28,2), on remarque directement que ces 3 équipes sont assez agés et sont toutes dans le top 10 des équipes les plus agées de la ligue. On remarque donc plus ou moins la présence d’une dizaine d’équipes dans la partie haute droite du graphe qui représente donc les équipes performantes et relativement agées ce qui montre que l’age et l’experience est un facteur essentiel de performance en NBA. D’autre part, en prenant les trois équipes ayant gagné le moins de matchs lors de la saison 2023, il s’agit des Detroit Pistons(moyenne d’age 24.1),les San Antonio Spurs(moyenne d’age 23.9) et les Houston Rockets(moyenne d’age 22.1), on remarque de meme que ces trois équipes sont très jeunes et font partie du top 5 des équipes les plus jeunes de la ligue. On remarque alors la présence d’une dizaine d’équipes dans la partie basse gauche du graphe, qui se distinguent par laur manque de performances, d’ou le nombre de victoires faible qui coincide aussi avec leur jeunesse et leur manque d’expérience. On en déduit que le manque d’éxpérience et de vétérans dans une équipe, ainsi que la présence de jeunes joueurs en développement sont des facteurs qui expliquent le manque de performances des équipes en NBA. En s’intéréessant aux autres parties du graphe, on remarque quelques exceptions, comme des équipes jeunes mais performantes dans la partie haute gauche du tableau, comme les Memphis Grizzlies ou les Cleveland Cavaliers, qui se distinguent donc par des talents individuels hors normes et des joueurs qui se développent rapidement ( Ja Morant, Evan Mobley), ce qui les rend compétitives pouvant rivaliser avec les meilleures équipes. Ou alors des équipes agées mais qui ne performent pas présentes dans la partie basse droite du graphe, comme les Dallas Mavericks ou les Chicago Bulls, qui se distinguent soit par des individualités et des talents vieillissants donc qui baissent de performances, ou alors qui souffrent de problèmes de blessures durant cette saison en particulier.
Le graphique ci-dessus illustre la relation entre l’âge moyen des équipes et leur nombre de victoires pour la saison 2010 de la ligue. Chaque point représente une équipe, colorée en rouge si elle n’a pas participé aux playoffs et en vert si elle a participé. Lorsque vous survolez un point, le nom de l’équipe s’affiche. On remarque tout d’abord comme pour la saison 2023, une tendance générale où les équipes avec un âge moyen plus élevé ont tendance à avoir un plus grand nombre de victoires, on remarque tout de meme une assez grande dispertion des données, plus importante que lors de la saison 2023. En portant notre interet à la partie haute gauche du graphe, on remarque que les équipes les plus agés sont bien performantes, mais en comaparaisant avec 2023, on remarque que les 3 équipes les plus performantes ne sont pas forcément parmi les plus agées, mais sont à la moyenne. En général,on remarque qu’il n’y a pas de schéma clair de répartition des équipes en fonction de leur âge moyen et de leur performance. En effet,avec l’observation des équipes qui ont participé aux playoffs (points verts) on remarque une répartition assez équilibrée entre les équipes jeunes et les équipes plus âgées, ce qui indique que l’âge moyen n’est pas le seul déterminant du succès en playoffs. Comme par exemple cette année là, l’équipe la plus vieille Dallas Mavericks, et la plus jeune, OKC Thundes sont toutes les deux en Playoffs.
Ainsi, pour pouvoir mieux visualiser ces données , nous avons créé un
shiny dashboard composé de deux pages, la première comptient le deuxième
graphique mais avec une barre pourpouvoir choisir l’année souhaitée, on
peut alors très facilement changer les années et comparer les graphes.
On peut par exemple facilement comparer l’année 2010 avec l’année 2016:
La deuxième page contient des
boites contenant des stats, qui calculent à chaque fois la moyenne d’age
de la ligue, la moyenne d’age des équipes qualifiées en playoffs et la
moyenne d’age de celles qui ne sont pas qualifiées dans des boites
différentes, et qui changent selon l’année. Voici les examples pour les
années 2010 et 2016:
L’utilisation de Shiny Dashboard et la
navugation entre les différentes années nous permet de constater encore
plus que meme si la tendance reste la meme la dispertion des données
entre une année et une autre, impliquant donc qu’il ne faut pas se fier
à l’age seulement pour évaluer les performances d’une équipe.
Pour finir, on peut conclure que globalement, les équipes plus âgées semblent avoir un avantage compétitif, suggérant que l’expérience et la maturité des joueurs jouent un rôle crucial dans le succès sur le parquet, désavantageant donc la jeunesse. Mais on a remarqué plusieurs “exceptions” à cette règle que soit à cause de talents individuels ou de blessures, certaines équipes jeunes performent et certaines équipes agées ne performent pas. Ainsi, bien que l’âge moyen des équipes puisse offrir des indications sur leur potentiel de performance, d’autres variables interviennent également, et chaque saison apporte son lot d’imprédictibilités, ce qui est l’essence même du sport à haut niveau.
Dans cette partie nous allons nous intéresser à la question suivante : est ce que les performances d’uné équipe influencent-elles l’affluence des fans dans l’arène ? Pour répondre à cette question nous avons utilisé le fichier Team Summaries qui renferment plusieurs informations importantes pour répondre à cette question notamment le nombre de victoires, la qualification aux playoffs et sans oublier le nombre de spectacteurs. Au cours de l’exploration de ce jeu de données nous avons remarqué quelques données erronés dans certaines années qui ont été ainsi mis de coté pour ne pas fausser les résultats. Nous avons aussi remarqué que les données sont assez complètes et ne contiennent pas de valeurs manquantes. Nous avons donc décidé de nous focaliser sur l’année 2024 pour répondre à notre question pour le premier graphe tandis que pour le second celui ci contient les résultats de tout l’histoire de la NBA.
Concernant notre jeu de données sur la NBA, nous nous sommes focalisés sur l’affluence des spectateurs dans les stades. En effet lors de l’année de 2024, nous avons identifié certains éléments concernant cela. Dans un premier temps, nous remarquons que les équipes ayant atteind les play-offs au cours de la compétition connaissant une affluence moyenne de spectateurs assez conséquente, vu que l’équipe ayant atteind les play-offs avec le moins de spectateur (Oklahoma City Thunder) connait près de 17500 spectateurs moyens par match ainsi nous pouvons déceler que les bonnes performances sportives des équipes est un facteur impactant sur le nombre de spectateurs notamment la qualification à travers la qualification aux play-offs.
D’une part, nous pouvons aussi ajouter qu’il y a des équipes qui ne sont pas qualifiés au play-offs comme les Chicago Bulls, Philadelplia 76ers, Miami Heat ou encore les New York Knicks qui sont des équipes qui ont une très forte affluence moyenne avoisinant les 20000 spectateurs par match malgré des résultats plus mitigés cela peut s’expliquer de plusieurs manières : -Des équipes mythiques qui ont eu un grand palmarès et une grande histoire dans la NBA -Des équipes qui ont un style de jeu particulier, plaisant à regarder qui peuvent intéresser le grand public -Des équipes qui ont des joueurs stars -Des grandes villes possèdant de grands stades de basket pouvant ainsi accueillir plus de spectateurs -Des équipes qui possèdent une bonne communication pour attirer le public à travers l’invitation de personnalités publiques lors des matchs Tous ces critères peuvent ainsi expliquer cette forte affluence des fans et touristes dans les stades malgré les performances sportives. D’autre part, il y a des équipes qui ne sont ni qualifié au play-offs ni assez populaires comme les Charlottes Hornets, les Indianna Pacers et les Washington Wizards qui ont une affluence avoisinant les 16000 spectateurs par match cela peut s’expliquer les mauvaises performance sportives et le manque d’attractivité lié au club d’une manière générale. En conclusion, nous pouvons dire que les écarts maximum d’affluence moyenne de spectateurs est de maximum 5000 spectateurs par match et que les facteurs jouant sur l’affluence moyenne sont les performances sportives (playoffs) et l’attractivité du club (histoire, joueurs, style de jeu, communication, ville, stade, etc).
Dans ce graphique montrant l’affluence moyenne par match en fonction du nombre de victoires nous pouvons remarquer de nombreux éléments importants. En effet, nous remarquons que les équipes qui enchainent plus de victoire en une saison ont tendance à attirer plus de spectateurs dans les stades. Par ailleurs, nous pouvons voir que les équipes ayant plus de 50 victoires en une saison ont une affluence moyenne de plus de 20000 spectateurs par match. Cela peut s’expliquer par le fait que les équipes qui gagnent plus de matchs sont plus attractives pour les fans et les spectateurs qui ont envie de voir des matchs de qualité et des équipes performantes.De plus, nous observons que les équipes ayant moins de 30 victoires en une saison ont une affluence moyenne de moins de 15000 spectateurs par match. Cela peut s’expliquer par le fait que les équipes qui perdent plus de matchs sont moins attractives pour les fans et les spectateurs qui ont envie de voir des matchs de qualité et des équipes performantes. En conclusion, nous pouvons dire que les performances sportives des équipes influencent l’affluence des fans dans les stades. Plus une équipe gagne de matchs, plus elle attire de spectateurs dans les stades. En outre, nous remarquons que l’année 2020 et 2021, nous remarquons une baisse générale de l’affluence des fans dans les stades. Cela peut s’expliquer par la pandémie de COVID-19 qui a eu un impact négatif sur l’affluence des fans dans les stades. En effet, de nombreux matchs ont été annulés ou reportés en raison de la pandémie, ce qui a entraîné une baisse de l’affluence des fans dans les stades.Nous pouvons aussi ajouter que les équipes populaires quelque soit leurs palmarès attirent plus de spectateurs dans les stades. En effet, les équipes mythiques comme les Los Angeles Lakers, les Boston Celtics ou les Chicago Bulls attirent plus de spectateurs dans les stades en raison de leur histoire, de leur palmarès et de leur popularité. En revanche, les équipes moins populaires comme les Charlotte Hornets, les Indiana Pacers ou les Washington Wizards attirent moins de spectateurs dans les stades en raison de leur manque de popularité et de leur manque de succès sportif. En conclusion, nous pouvons dire que les performances sportives des équipes influencent l’affluence des fans dans les stades
Pour conclure la réponse à la question posée, nous pouvons dire que les performances des équipes influencent l’affluence des fans dans les stades. En effet, les équipes qui gagnent plus de matchs attirent plus de spectateurs dans les stades. De plus, les équipes qui se qualifient pour les playoffs ont une affluence moyenne plus élevée que les équipes qui ne se qualifient pas. En outre, les équipes populaires attirent plus de spectateurs dans les stades que les équipes moins populaires. En conclusion, nous pouvons dire que les performances sportives des équipes, la qualification aux playoffs et la popularité du club sont des facteurs importants qui influencent l’affluence des fans dans les stades.
Dans cette partie, nous allons nous intéresser à la question suivante : A quel age les performances des joueurs commencent à décliner ? Nous allons pour cela utiliser le fichier “Player Totals” qui regroupe les informations sur les différents joueurs en fonction de la saison. On va choisir de ne pas utiliser les données avant 1980 car pour la plupart elles sont en partis erronées ou manquantes. On va ensuite chercher à comparer les attaquants car c’est eux qui marquent le plus de points et la plupart des statistiques disponibles concernent les points, le pourcentage de réussite au tir…
Concernant notre jeu de données, nous remarquons à l’aide du barchart que le pourcentage de réussite des joueurs n’est pas directement lié avec leur âge puisque on remarque qu’il est le même pratiquement pour tous les âges. Il varie seulement de 0.39 pour le plus bas à 36 ans à 0.434 à 29 ans. On remarque cependant une très forte hausse à 40 ans, on va donc essayer de comprendre pourquoi car ce résultat semble très innatendu et peu probable.
On remarque que il y a que 4 données, sachant que pour un joueur il a mit seulement 2 point sur une seule tentative donc son pourcentage de réussite de 100% fausse forcément le résultat. Voici donc l’explication du graphe précédent.
Dans le prochain graphique, on va essayer de mettre en relation divers facteurs de performances comme le nombres de points totaux par saison et le nombre de minutes jouées par saison. J’ai choisi de ne pas mettre plus de facteurs de performances comme le nombres de matchs joués, les blocks défensifs… pour éviter la surcharge. Comme pour le graphe précédent, nous utiliserons que les données pour les années après 1980. Pour essayer d’avoir des résultats différents et surtout étudier le plus largement possible, j’ai choisi d’inclure tous les postes dans mon étude.
On remarque grâce à ce dernier graphe que les courbes sont pratiquement similaires. On pouvait effectivement s’attendre à ce résultat car plus on joue de matchs et plus on a l’occasion de mettre des points. Même si en NBA, la plupart des équipes préférent faire rentrer leur joueur expérimenté que peu de temps mais qu’il fasse une grosse différence sur le parquet. Cette hypothèse est envisageable mais n’est pas vérifié au niveau des points en tout cas. On va pour finir, essayer de voir s’il existe une corrélation entre l’âge et les blocks (performance défensive).
Sur ces derniers graphs, on voit tout d’abord que pour le nombres de points et pour le nombre de minute jouées par saison il y a un pic à 29 ans avec avant une montée progressive et ensuite une descente progressive et linéaire. Concernant les blocks donc une performance défensive, le pic est moins marqué mais on retrouve un pic autour de 29 ans également. Cependant on distingue une légère montée avant ce pic pour l’atteindre et ensuite une légère descente mais qui reste bien moins significative que pour les 2 graphiques précédent concernant le nombre de point par saison et les minutes jouées.
Pour conclure, dans cette analyse sur les performances des joueurs de la NBA en fonction de leur âge, nous avons observé des tendances intéressantes. En se concentrant sur les années post-1980 et en mettant l’accent sur les attaquants, nous avons constaté que le pourcentage de réussite au tir semble relativement stable avec l’âge, avec une exception notable à 40 ans due à un faible échantillon de données. En examinant d’autres indicateurs tels que le nombre moyen de minutes jouées par saison et le nombre moyen de points totaux marqués par saison, nous avons identifié un pic autour de 29 ans, suivi d’une diminution progressive des performances. On peut donc dire que toutes les performances ne sont pas affectées par l’âge mais certaines le sont en fonction des postes (plus ou moins physique), en fonction de la performance étudiée qui requiert plusou moins de force physique, de vivacité qui sont des atouts que l’ont perd avec l’âge. Pour avoir plus de précision sur la question, il faudrait étudier beaucoup plus de critères de performances et essayer de les correler avec les différents postes de jeu par exemple. Ces résultats suggèrent néanmoins l’importance de la gestion de l’effectif et des stratégies d’équipe en tenant compte de l’âge des joueurs dans certains cas.
Concernant cette question, nous allons nous intéresser à l impact des fautes sur les matchs de NBA,donc sur la victoire probable d une équipe ou non, que ce soit les fautes commises ou les fautes provoquées. Pour commencer, une faute implique un non respect des règles du jeu en ayant un caractère antisportif, il en existe plusieurs types, les plus importantes sont fautes personnelles qui impliquent un contact personnel illégal avec un adversaire, les fautes techniques qui englobent toute les actions antisportives mais qui ne sont pas un contact entre deux joueurs dans le jeu, contestations par exemples et enfin les fautes flagrantes qui mettent en danger l’intégrité physique de l’adversaire. Poue cette question nous allons seulement nous intéresser aux fautes personnelles, plus courantes et celles qui impactent le plus le jeu.
Pour commencer, au niveau du premier graphe, nous avons utilisé le fichier Teams Averages qui répertorie les moyennes par match des plus grandes catégories statistiques du basket. Nous avons décidé de nous concentrer sur une seule année pour pouvoir voir les différences entre toutes les équipes, nous nous sommes intéressés aux éléments pf_per_game, nombre de fautes personnelles par matchs pur chaque équipe, et à l’élément playoffs qui est un booléen ayant comme valeur TRUE si une équipe est qualifiée et FALSE sinon. Il s’agit donc d’un graphique à barres empilées dans lequel on a comparé la moyenne de fautes commises ( en ordonnée) par équipe ( en abcisse) selon la participation en playoffs ( vert ou rouge). De plus, la ligne horizontale en pointillé bleu représente la moyenne de fautes par match de toutes les équipes. Le graphique est aussi interactif grace à plotly et montre les détails des informations des équipes en survolant chaque barre. On remarque que les résultats sont très éparpillés,l’équipe qui a commis le plus de faute et l’équipe qui en a commis le moins ne sont pas qualifiés, cela indique une grande variabilité dans les fautes commises par les équipes, indépendamment de leur qualification aux playoffs. Celà peut s’expliquer par le fait que les fautes soient des faits de jeu parmi tant d’autres et n’influencent donc pas rééllement le cours du match, ce qui indique donc que les fautes personnelles ne sont pas un facteur déterminant pour la qualification en playoffs donc pour la victoire et la performance en général. Néanmoins, on peut remarquer une sorte de zone optimale de fautes personnelles, qui se situe entre 19 et 19,7 se rapprochant de la moyenne où les équipes peuvent jouer de manière suffisamment agressive sans trop pénaliser leur performance globale. On peut en conclure que pour pouvoir etre performant, il faudrait trouver un juste milieu entre l’agressivité et le fair-play.
Concernant le deuxième graphe, nous allons nous intéresser à un type spécifique des fautes personnelles, qui sont les fautes sur tir qui sont donc les fautes effectués lorsqu’un joueur est en action de tirer, il obtient alors des lancers francs. Nous allons donc essayer de voir l’effet de la provocation de fautes, donc l’obtention de lancers sur la victoire et la qualification en playoffs. Ainsi, dans ce graphe, nous avons utilisé les données teams, points per game en ordonnées, FT ( free throw = lancer franc) per game en abcisse et la qualification ou non en playoffs en vert ou rouge. On remarque premièrement certaines équipes situées en haut a droite dans le graphe, et coloriés en vert, ce sont donc des équipes qui marquent le plus de points dont beaucoup de lancers francs, et dont le ratio est de 20% de points marqués sont des lancers francs. Ces équipes là sont de couleur verte donc sont bien qualifiés en playoffs ce qui montre leur très bon niveau de performance. Au contraire, les équipes situées en bas à gauche sont celles qui marquent le moins de points et le moins de lancers france avec un ratio de 15%. Elles sont coloriés en rouge, donc ne sont pas qualifiés en playoffs. Meme si on remarque qu’au milieu du graphique on a plusieurs points éparpillés, on ne peut donc pas nier que le fait de provoquer des fautes, d’etre malin est une manière pour obtenir des lancers francs, une manière facile d’inscrire des points et donc d’augmenter les chances de gagner des matchs.
En conclusion, l’analyse des fautes personnelles commises par les équipes montre une grande variabilité des fautes commises par les équipes, indépendamment de leur qualification aux playoffs,meme si on a remarqué qu’etre dans la moyenne était plutot favorable à la performance. De plus, on a pu démontrer que la provocation de fautes et l’obtention de lancers francs sont des stratégies clés pour augmenter les chances de succès.
Enfin, cette question va avoir pour objectif de définir si la NBA est de plus en plus spectaculaire ou non. Il existe de multiple indicateurs qui peuvent nous permettre de répondre à cette questions mais nous allons étudier la distance de tir des joueurs. Les tirs à longue distance sont spectaculaires à observer et produise un effet direct sur le ressenti du spectateur du match. Il faut savoir qu’au basket, un tir vaut 3 points lorsqu’il est marqué à plus (d’environ) 7 mètres du panier et il vaut 2 points lorsqu’il est marqué en dessous de cette distance. Les tirs à 1 point résultent d’une faute de l’adversaire et sont tirés à exactement 4,6 mètres du panier.
Il faut cependant noter que la ligne des trois points a été introduite dans la NBA lors de la saison 1979-1980. Par conséquent, toutes les saisons avant cela n’auront naturellement pas de tir à 3 points.
Ainsi, pour résumer :
3 points : un tir >= 7 mètres du
panier2 points : un tir < 7 mètres du
panier1 points : un tir à 4,6 mètres de
distance, directement en face du panier et sans défenseursOn constaste dans les deux premiers graphiques que les tirs à 3 points (plus de 7 mètres) prennent une place de plus en plus grande au fil des années. De plus depuis la saison 1987-1988, soit 8 ans après l’introduction du nouveau type de panier, les équipes jouent moins les paniers à 2 points et jouent plus les paniers à 3 points car ils sont stratégiquement plus intéressants. Ainsi, La distance d’un panier marqué a donc un impact direct sur le style de jeu et la dimension spectaculaire du sport.
Nous pouvons donc ainsi nous demander si la NBA s’est plus tourné vers du spectacle uniquement avec l’arrivée de cette nouvelle règle, ou si cette évolution ne s’est pas arrêté. Ainsi, nous allons maintenant étudier plus en détail l’évolution des paniers à 3 points.
Depuis l’arrivée des paniers à 3 points en NBA (1980), on constate que le nombre médian de panier à 3 points est en hausse depuis les années 80. Durant la première décennie, nous constatons avoir beaucoup de valeur aberrantes, cela est dû au fait que la règle était nouvelle et que toutes les équipes ne se sont pas directement adapté à ce style de jeu. L’évolution la plus importante du nombre médian est entre la première et seconde décennie : il est passé de 63 à 290 et s’est donc multiplié par 4,6. Cela confirme donc ce que nous avons dit précédemment (que les équipes se sont mis à plus joué autour des paniers à 3 points après la saison de 1987-88).
On constate aussi que la médiane de panier à 3 points entre l’avant-dernière et dernière boite à moustache augmente considérablement (x1.4) alors que nous ne sommes même pas à la moitié de la décennie actuelle. Cela signifie qu’à la fin de la décennie, les valeurs de cette boîte à moustache seront encore plus augmentées. Ainsi, nous pouvons répondre à la question que nous nous sommes posé par “oui, la NBA se tourne de plus en plus vers le spectacle”.
Pour conclure, cette analyse nous a permis de découvrir plus en détail le championnat de la NBA aux États-Unis et des différentes parties prenant poussant une équipe à être vainqueur du championnat. Nous avons analysé l’impacter de joueurs stars sur leurs équipes, comme par exemple l’impact du meilleur joueur de la saison (MVP) sur la qualification de son équipe. De plus, nous avons aussi pu en apprendre plus sur l’évolution du sport et de la compétition en général, en nous intéressons à l’évolution de la qualité de jeu proposé et du nombre de spectateurs par match.
La difficulté majeure que nous avons rencontrée dans ce projet était causé par la taille de notre jeu de données. En effet, notre dataset était composé de 21 fichiers et il était parfois difficile de manipuler certaines données quand elles n’étaient pas contenues dans la même table.
Pour conclure ce projet, chaque membre de notre groupe va exprimer la
compétence qu’il a retenu de ce projet et un aspect qu’il aurait
apprécié aborder dans ce projet mais qu’il n’a pas été possible
d’effectuer : * Youssef : La compétence
que j’ai retenu durant ce projet est le fait de réaliser différents
types de graphique sur R, me permettant ainsi de faire des
visualisations claires et lisibles pour le grand public en alliant mes
connaissances théoriques notamment sur les biais cognitifs et mes
compétences techniques sur R en utilisant différentes librairies. Un
aspect que je voulais vraiment aborder est l’utilisation du logiciel
Power Bi qui très utilisé dans les entreprises ainsi c’est pour cette
raison que j’aurais voulu quand l’aborde un peu plus en détail au vue de
son importance et de sa popularité dans le monde du travail. *
Antoine : Au cours de ce projet, j’ai pu
améliorer ma capacité à réaliser des graphes à la fois impactant et qui
raconte correctement le message que je veux transmettre. Cependant,
j’aurais apprécié que ce projet traite plus en détail la partie
technique pour apprendre à réaliser des diagrammes plus complexes et
détaillé. * Thomas : Tout au long de ce
projet, j’ai pu améliorer ma capacité à travailler en équipe,
communiquer et se répartir les tâches. J’ai pu également comprendre et
m’initier à la dataviz pour permettre d’expliquer certains résultats ou
situations à l’aide de graphiques adaptés. Comme Youssef, j’aurai aimé
pouvoir utiliser un peu plus powerBI qui m’a été demandé lors de mes
recherches de stage notamment. * Mohamed :
Pour ma part, cette UE et surtout le projet a été enrichissant au niveau
technique en dataviz notamment grace à l’utilisation de certains
logiciels comme R et Tableau, mais aussi au niveau des compétences
humaines de travail en équipe.Le point à améliorer pour ma part serait
de moins espacer les rendus du projet et de les coordonner avec les
retours de nos camarades pour l’évaluation par les pairs.
Pour la réalisation de ce projet, nous nous sommes réparties les taches de la manière suivante :
Youssef : 2. Quelle est la différence
entre le basket d’aujourd’hui et celui d’autrefois ? 4.
Les performances d’une équipe influencent elles l’affluence des fans
dans l’arène?Antoine : 1. Est que le MVP est
forcément qualifié au playoff ou gagnant de cette compétition ?
8. Est-ce que la NBA se tourne de plus en plus vers le
spectacle ?Mohamed : 3. Existe-t-il une
corrélation entre la moyenne d’âge d’une équipe et son classement dans
la saison régulière ? 7. Est ce que les fautes ont un
impact sur les performances de l’équipe ?Thomas : 6. Y a-t-il une corrélation
entre les performances individuelles des joueurs clés et le succès de
l’équipe ? 5. A quel age les performances des joueurs
commencent à décliner ?Ainsi chaque membre du groupe devait traiter 2 questions, pour chaque question il devait réaliser une étude complète avec une introduction de la question, la réalisation des graphes, l’interprétation des graphes et enfin une conclusion avec la réponse finale à la question. On disposait d’un serveur Discord, où on échangeait entre nous si jamais il y a avait un problème technique ou si quelqu’un avait besoin d’aide